<code>
data.check                package:unknown                R Documentation

Identificacao de inconsistencias em bases de dados (data frames) e, futuramente, entre duas bases de dados distintas.

Description:

Retorna os valores unicos (sem repeticao) de colunas dos data frames em ordem crescente, permitindo a identificacao de possiveis erros de digitacao; retorna tambem possiveis linhas repetidas encontradas nos data frames, facilitando a consulta e verificacao dos dados. No futuro, retornara ainda as linhas presentes em uma base de dados e ausentes na outra.

Usage:

data.check(a, b, unicos=1, lista_col_uni=NULL, repetidos=1, lista_col_rep=NULL)

Arguments:

a,b			objetos que guardam os dois data frames a serem comparados (a e b). A funcao exige que ambos os data frames sejam inseridos. A importacao dos data frames para os objetos a e b deve ser feita com o argumento as.is=TRUE, da funcao read.table().
unicos			define as colunas cujos valores unicos (sem repeticao) serao retornados. Se unicos=0, nao serao retornados os valores unicos de nenhuma coluna; se unicos=1, serao retornados os valores unicos de todas as colunas, de ambos os data frames; se unicos=2, serao retornados apenas os valores unicos das colunas especificadas pelo usuario, por meio do argumento lista_col_uni (ver a seguir).           
lista_col_uni		lista com dois vetores numericos, que contem as colunas cujos valores unicos se deseja obter: o primeiro vetor se refere ao data frame a e o segundo, ao data frame b. Deve ser especificado apenas se unicos=2.
repetidos		define as colunas que serao consideradas na busca por linhas repetidas. Se repetidos=0, nao sera feita a busca por linhas repetidas; se repetidos=1, serao retornadas as linhas exatamente identicas, ie, aquelas que possuem elementos iguais com relacao a todas as colunas; se repetidos=2, serao retornadas apenas as linhas com elementos iguais nas colunas especificadas pelo usuario, por meio do argumento lista_col_rep (ver a seguir).
lista_col_rep		lista com dois vetores numericos, que contem as colunas que serao consideradas ao se buscar linhas repetidas: o primeiro vetor se refere ao data frame a e o segundo, ao data frame b. Deve ser especificado apenas se repetidos=2.

Details:

A funcao gera valores unicos para todas as colunas (argumento "unicos=1") ou para colunas especificadas pelo usuario (argumento "unicos=2") por meio da funcao unique(), organizando as informacoes geradas em arquivos .txt separados para cada coluna, em ordem crescente.
Na busca por possiveis linhas repetidas em um data frame, a funcao compara todas as linhas, par a par, quanto a todos os seus elementos (argumento "repetidos"=1) ou quanto aos elementos presentes em colunas determinadas (argumento "repetidos=2"), retornando um arquivo .txt com as linhas repetidas no diretorio de trabalho.
Alem dos arquivos .txt, a funcao retorna os resultados em objetos na area de trabalho (veja a seguir).

Value:

Objetos gerados na area de trabalho:

Objetos da classe "list" contendo os valores unicos encontrados nos objetos a e b:
  Se unicos=1: "v.unicos.a", "v.unicos.b"
  Se unicos=2: "v.unicos.a.c", "v.unicos.b.c"

Objetos da classe "data.frame" contendo as linhas repetidas encontradas nos objetos a e b:
  Se repetidos=1: "reg.duplicados.a", "reg.duplicados.b"
  Se repetidos=2: "reg.duplicados.ac", "reg.duplicados.bc"

Arquivos .txt gerados no diretorio de trabalho: 

Se unicos=1 ou unicos=2: sera gerado um arquivo .txt para cada coluna de cada data frame, contendo seus respectivos valores unicos. Os nomes dos arquivos gerados terao a seguinte estrutura: 
  Para unicos=1: "unicos1_a ou b_nome da coluna.txt"
  Para unicos=2: "unicos2_a ou b_nome da coluna.txt"

Se repetidos=1 ou repetidos=2: sera gerado um unico arquivo .txt para cada data frame, contendo as linhas repetidas. Os nomes dos arquivos gerados terao a seguinte estrutura:
  Para repetidos=1: "registros_repetidos_a ou b.txt"
  Para repetidos=2: "registros_repetidos_a ou b_colunas_especificas.txt"

Warning:



Note:

 A funcao foi pensada de modo a incluir a comparacao entre data frames, etapa ainda nao implementada. Esta intencao justifica a necessidade dos dois data frames (a e b) na funcao, assim como a presenca das opcoes de nao realizar as consultas de valores unicos e linhas repetidas.  

Author(s):

Mariana Morais Vidal
marimvidal@yahoo.com.br

References:

     

See Also:

Para guardar os data frames nos objetos a e b: read.table (as.is=TRUE)

Examples:

library(datasets)
a<- OrchardSprays
b<- cars
  data.check(a,b,unicos=1,repetidos=1)
  data.check(a,b,unicos=2,repetidos=0,lista_col_uni=list(c(1,2,4),c(1,2))) 
  data.check(a,b,unicos=0,repetidos=2,lista_col_rep=list(c(1,4),c(1))) 

</code>

